该内容已被发布者删除 该内容被自由微信恢复
文章于 2024年9月7日 被检测为删除。
查看原文
被用户删除
其他

好文荐读|胡韧奋:基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究

胡韧奋 语言学心得 2021-12-26


“语言学心得”新版块掉落~好文荐读(第九期) 基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究~

“好文荐读”不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~



基于搭配的句法复杂度指标及其

汉语二语写作质量关系研究

胡韧奋
北京师范大学


文章简介

文章来源:胡韧奋.基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究[J].语言文字应用,2021(01):132-144.


摘要:本文提出了基于搭配多样性与复杂性的汉语短语层面句法复杂度指标,并实现了相关特征的自动抽取。实验引入了大规模二语作文语料库, 对句法复杂度与汉语二语写作质量之间的关系进行了系统验证。研究发现, 基于小句、T 单位等特征的传统句法复杂度指标对写作成绩的解释力较弱, 而基于搭配的短语层面句法复杂度指标能够有效地预测写作成绩。进一步分析显示, 在汉语二语写作文本中, 以谓词为核心的短语结构在句法复杂度衡量中扮演重要角色。

关键词:句法复杂度; 短语; 搭配; 语料库; 二语写作基金资助:国家社科基金青年项目“面向汉语国际教育的智能测试技术研究”( 18CYY029) 、国家自然科学基金青年项目“面向古籍整理智能化的知识表示与加工研究”( 62006021) 

本文获得《语言文字应用》期刊授权推广,全文下载请点击文末“阅读原文”。


一 引言


句法复杂度指语言产出中句法结构的多样性及复杂性( Lu, 2010) , 其在衡量二语学习者语言水平、语言发展及写作质量中扮演重要角色( 吴继峰, 2018) 。现有研究主要关注二语学习者的写作或口语输出, 常采用基于句特征的指标, 如大句、小句、T 单位等语言特征的数量和长度等( Ortega, 2003) 。近年来, 越来越多的研究指出了句层面指标存在可解释性弱、效果不佳等问题, 并开始探究短语层面更为精细的句法特征 ( Norris & Ortega, 2009; Biber et al.,2011) 。在英语二语写作领域, 研究者发现高分作文更多地采用短语复杂度特征而非小句复杂度特征( Taguchi et al. , 2013) , 同时, 细粒度的短语特征, 尤其是复杂名词短语的重要性尤为凸显( Biber et al. , 2016; Kyle & Crossley, 2018) 。但是,现有的汉语二语句法复杂度研究仍然存在多个关键问题有待进一步探索: 首先, 英语二语句法复杂度研究呈现出从粗粒度小句特征向细粒度短语特征发展的趋势, 短语层面的句法复杂度受到了越来越多的重视。相较而言, 汉语二语相关研究仍然聚焦在句层面, 如 T 单位、话题链、特殊句式等, 短语层面的句法复杂度研究较为罕见。第二, 现有的汉语二语句法复杂度实证研究, 往往基于小规模语料数据, 侧重分析句法复杂度在特定母语学习者的语言水平发展和写作质量评估中扮演的角色, 其研究结论是否适用于其他母语背景二语学习者尚有待进一步验证和探讨。第三, 在英语句法复杂度研究中诞生了Coh-Metrix( Graesser et al. , 2004; McNamara et al. , 2014 ) 、SCA ( Lu, 2010 ) 、TAASSC ( Kyle,2016) 等分析工具, 可以对文本进行自动标注和指标抽取。目前, 汉语学术界仍缺乏专门的句法复杂度分析工具, 相关研究往往依赖人工标注, 时间成本较高。从上述三个问题出发, 本文研究并构建了 4 个反映汉语特点的短语层面句法复杂度指标,并基于 1 万余篇汉语二语作文探究相关指标与写作质量之间的关系。实验还引入了 5 个传统的句层面复杂度指标, 将其与本文提出的短语层面指标进行对比, 以期对句法复杂度指标与汉语二语写作质量的关系进行系统验证。值得一提的是, 本文基于语言信息处理技术实现了汉语句法复杂度特征的自动抽取与指标计算, 该工作亦可为汉语句法复杂度研究及相关应用提供参考和支持。


 二 研究设计

 

( 一 ) 研究问题1. 在短语层面, 宜选取什么样的句法单位来衡量复杂度且能反映汉语语言特点?2. 给定句法单位, 如何构建汉语短语层面句法复杂度指标?3. 给定大规模二语作文数据, 汉语短语层面句法复杂度指标能否有效地预测写作成绩?4. 与汉语二语写作质量最密切相关的短语特征是什么?( 二 ) 短语层面句法复杂度指标设计1. 句法单位选择句法复杂度可通过句法单位的多样性及复杂性反映( Lu, 2010) , 因此, 在设计短语层面的句法复杂度指标时, 需要首先选择合适的句法单位。Granger 和 Paquot( 2008) 提出, 短语层面的句法单位通常包括基于统计信息的词语搭配、语法搭配、构式搭配、词块等。吴思远等( 2020) 在构建母语文本可读性分析指标体系时, 考虑了不同类型的短语和依存句法中的主语、核心动词、修饰成分等特征。已有研究指出, 语言类型学特征在句法复杂度构建上扮演重要角色( Yu, 2020) 。例如, 在小句层面, 汉语所特有的话题链特征相较通用的 T 单位能够更有效地衡量句法复杂度。从这一原则出发, 本文拟选择搭配作为短语层面的句法单位, 因为搭配既是一种通用的短语句法单位, 又可以反映汉语所特有的语法和语义特点。综合前人研究成果, 本文拟采用胡韧奋和肖航( 2019) 所界定的搭配作为短语层面句法单位, 其原因主要有三个方面: ( 1) 本文着眼于汉语二语句法复杂度研究, 胡韧奋和肖航( 2019) 的工作同样立足于汉语二语教学需求, 其提出的搭配类型涵盖了跨语言通用类型和汉语所特有的类型, 既能够反映普遍的语言现象, 又能很好地体现汉语所特有的句法特征。( 2) 文中提出的各类型搭配均可基于自然语言处理技术从文本中自动抽取, 为大规模量化分析和实证研究提供了便利条件。( 3) 其构建的大规模搭配知识库可以提供搭配的频次、互信息等指标, 为短语层面句法复杂度研究提供了重要的数据支撑。需要指出的是, 其定义的九种搭配类型中, 关联词搭配需跨小句, 不属于短语层面, 因此本文沿用了前八种搭配类型, 其示例参见表 1。表 1 本文研究所选用的八种搭配及其示例

2. 句法复杂度指标构建Paquot( 2019) 在研究英语短语句法复杂度时, 曾借鉴词汇多样性和复杂性的衡量方法, 对定中( 形容词 + 名词) 、状中( 副词 + 形容词 /动词 /副词) 、动宾三类词组的多样性和复杂性进行衡量。受到其方法启发, 本文将从搭配多样性和复杂性两个角度进行短语层面句法复杂度指标的设计。在搭配多样性方面, 本文将通过类符数 /开根形符数( Root Type Token Ratio, RTTR) 方法进行每篇文章搭配多样性的衡量, 包括整体搭配的多样性和汉语特有搭配的多样性, 其描述及计算方法参见表 2。表中, T 表示搭配的类符( type) 数, N 表示其形符( token) 数, 分母开根号用于缓解文章长度带来的影响。表 2 基于搭配多样性与复杂性的短语层面句法复杂度指标( * 用于标示汉语特有搭配)

现有研究在衡量词汇或词组的复杂性时主要依据频次或词语之间的互信息值, 通过设置相应阈值选出较为复杂的词语或词组, 进而计算文中复杂词语或词组的比例作为复杂度指标( Granger & Bestgen, 2014; Paquot, 2019) 。与现有研究不同的是, 本文认为, 搭配的复杂性不仅体现在低频或高互信息搭配的使用, 还应表现在汉语特有搭配的使用上。对于二语学习者而言, 学习并使用其母语未包含的句法结构是一项难点。据此, 我们提出了基于统计信息( 频次、互信息) 的复杂性指标 LOWFREQ_RATIO 和基于类型的复杂性指标 UNIQUE_RATIO, 其描述及计算方法参见表 2。在计算低频搭配的比例 LOWFREQ_RATIO 时, 我们首先从胡韧奋和肖航( 2019) 构建的大规模中文搭配库中获取了搭配的频次和互信息。该库包含二语教学搭配库和通用百科搭配库两个子库, 其中, 二语教学搭配库从近 200 本汉语二语教材文本中抽取得到, 规模超过 30 万;百科搭配库从全量中文维基百科文本中抽取, 规模超过 145 万。给定一篇文章所包含的搭配,低频搭配的界定需要满足如下三个条件: ( a) 该搭配为教材子库收录, 且频次低于阈值 k1; ( b)该搭配为通用百科子库收录, 且频次低于阈值 k2; ( c) 该搭配在任意一个子库中的互信息值大于阈值 k3。实验中, 阈值经多次测试设置为 k1 = 6, k2 = 30, k3 = 0。此外, 为了进一步分析不同搭配类型的贡献, 还可分别计算八种类型搭配的多样性和所占比例, 具体参见后文讨论与分析章节。( 三 ) 本研究采用的参照指标考虑到现有的汉语二语句法复杂度研究主要关注句层面特征, 本文在实验中还引入了 5个传统的句层面句法复杂度指标作为参照, 以期更好地揭示短语层面搭配复杂度指标在二语写作质量评估中扮演的角色。所采用的句层面参照指标如下所示:平均大句长( Mean Length of Sentences, MLS) : 文章中大句平均长度, 计算长度相关指标时以字数计, 不考虑数字、字母、标点等。平均小句长( Mean Length of Clauses, MLC) : 文章中的小句平均长度, 通过逗号和分号分割大句, 然后取小句长度均值。平均 T 单位长( Mean Length of T-units, MLTU) : 文章中平均 T 单位长度, 通过算法自动识别大句中的 T 单位, 然后取 T 单位长度均值, T 单位识别方法将在后文实验数据处理环节进行介绍。平均小句数( Number of Clauses Per Sentence, NCPS) : 文章中的小句总数 /大句总数。平均 T 单位数( Number of T-units Per Sentence, NTPS) : 文章中的 T 单位总数 /大句总数。( 四 ) 实验数据本文从 HSK 动态作文语料库 2. 0 版②中采集了包含评分的作文数据 10277 篇, 共计 377万字, 作文分数的平均值是 69. 469, 标准差为 10. 980。在进行语言特征抽取前, 根据语料偏误标注信息将作文中的字词及标点错误修正, 并去除了语料标注标记。( 五 ) 语言特征抽取为了开展大规模实证研究, 本文采用自然语言处理技术对指标所依赖的词、句、搭配等特征进行自动抽取。如图 1 所示, 首先调用 LTP 语言技术平台提供的自然语言处理模型对每篇作文文本进行预处理, 包括分句、分词、词性标注和依存语法分析。随后, 分别对句层面和短语层面的句法特征进行提取。

图 1 语言特征抽取流程图在句层面, 根据逗号、分号标点进行小句切分, 随后对每个小句是否为独立 T 单位进行判定, 判断条件包括: ( a) 该小句包含核心谓词; ( b) 该小句包含核心谓词的子节点, 且其与核心谓词构成并列依存关系; ( c) 该小句包含( b) 类节点的子节点, 且其与( b) 类节点构成并列依存关系。符合上述条件之一的小句可视为 T 单位。在短语层面, 采用胡韧奋和肖航( 2019) 提出的方法对八种类型的搭配进行抽取, 随后在其构建的大规模搭配知识库中获取相关搭配的频次和互信息指标, 以判定是否符合低频搭配条件。通过上述步骤, 可以获取句法复杂度指标构建所需的语言特征, 如下例所示:

( 1) 他热爱教育事业, 编写过很多部教材, 也给学校培养了不少年轻老师。

句层面: 1 个大句, 3 个小句, 3 个 T 单位;

短语层面: 5 种类型的 7 个搭配, 包括:

动宾搭配: “热爱 事业”“编写 过 教材”“培养 了 老师”

形名搭配: “年轻 老师”

状中搭配: “也 培养”

量名搭配: “部 教材”

介动搭配: “给 X 培养 了”

图 2 不同类型搭配的分布情况在实验中, 本文从 10277 篇作文中共获取了超过 14 万大句、31 万小句和 26 万 T 单位, 平均每篇作文约包含 14 个大句、31 个小句和 25 个 T单位。在短语层面, 本文抽取了近 72 万组词语搭配, 平均每篇作文约有 70 组词语搭配, 各类型所占比例如下图所示。其中, 状中搭配的比例最高, 达到 40% , 动宾和主谓搭配均达到 20% 以上, 其余五种搭配均分布在 2. 6% ~ 4. 6% 之间,汉语所特有的四种搭配共占 14% 左右。

三 实验结果


( 一 ) 描述统计

本文提出了四个短语层面句法复杂度指标, 并引入了五个传统的句层面指标作为参照, 其描述统计结果如表 3 所示, 其中, Pearson’s r 为该指标与写作成绩的相关系数。

表 3 描述统计信息

在传统句层面指标中, 平均小句长 MLC 未与写作成绩形成显著相关性, 平均小句数 NCPS与写作成绩的相关系数最高( r = 0. 198) , 平均大句长 MLS 和平均 T 单位数 NTPS 次之, 平均 T单位长 MLTU 与写作成绩的相关性较低( r = 0. 068) 。在短语层面的指标中, 搭配多样性与复杂性均与写作成绩呈现显著相关性( p < 0. 001) ,其中整体搭配的多样性 TOTAL_RTTR 与写作成绩的相关系数最高( r = 0. 559) 。值得注意的是, 汉语特有搭配虽然数量不多, 在作文语料库中占比均值仅为 13. 8% , 但是其 多 样 性UNIQUE_RTTR 与写作成绩呈现出较高的相关性( r = 0. 412) 。在两种复杂性指标中, 低频搭配比例 LOWFREQ_RATIO 与汉语特有搭配比例 UNIQUE_RATIO 均值接近( 均为 14% 左右) ,但 LOWFREQ_RATIO 与写作成绩的相关性明显低于 UNIQUE_RATIO, 这进一步体现了汉语特有句法结构在二语写作中的重要性。综上来看, 句层面和短语层面各有 4 项指标与写作成绩呈现显著相关性, 相关系数最高的是短语层面的搭配整体多样性 TOTAL_RTTR( r = 0. 559) 和汉语特有搭配多样性 UNIQUE_RTTR( r = 0. 412) , 二者与写作成绩的相关系数均明显高于句层面最有效的指标平均小句数NCPS( r = 0. 198) 。( 二) 回归分析为了进一步考察不同指标对写作成绩的解释能力, 本文采用 SPSS 中的逐步线性回归方法分别构建了句层面、短语层面的作文成绩预测模型。进入回归分析的指标需满足如下条件:( 1) 指标与作文成绩有显著相关性; ( 2) 指标之间不存在共线性依赖关系( 回归模型的方差膨胀因子 VIF < 10) 。接下来, 将分别对各模型结果进行介绍。1. 句层面指标回归分析在句层面的五个句法复杂度指标中, 平均小句长 MLC 未与写作成绩形成显著相关, 平均T 单位数 NTPS 进入回归时会与其他指标形成共线性依赖关系。因此, 剔除这两项指标后再构建逐步线性回归模型, 其结果如表 4 所示。

表 4 基于句层面句法复杂度指标的逐步回归分析结果

基于句层面指标, 三组回归模型的估计标准误( Std. Error of the Estimate) 均小于写作成绩的标准差 10. 980。此外, 回归系数均达到显著( p < 0. 001) , 回归模型的残差经直方图、P - P图检验符合正态分布。由此可见, 该回归模型是有效的, 三个指标一共可以解释写作成绩变异的 4. 9% 。参考 Cohen( 1988) 的效应量参照体系 , R2 的小、中、大效应量标准分别是 0. 02、0. 13、0. 26。由此可见, 句层面指标的 R2达到小效应量。其中, 平均小句数 NCPS 单个指标可以解释写作成绩变异的 3. 9% , 是句层面对写作成绩预测贡献最大的指标。2. 短语层面指标回归分析经检验, UNIQUE_RTTR 因与其他指标存在共线性关系而被剔除, 其余三个基于搭配的短语层面指标满足进入回归分析的条件, 其逐步回归分析结果如表 5 所示。

表 5 基于短语层面句法复杂度指标的逐步回归分析结果

基于短语层面指标, 三组回归模型的估计标准误( Std. Error of the Estimate) 均小于写作成绩的标准差 10. 980。此外, 回归系数均达到显著( p < 0. 001) , 回归模型的残差经直方图、P - P图检验符合正态分布。由此可见, 该回归模型是有效的, 短语层面指标一共可以解释写作成绩变异的 32. 4% , R2 达到大效应量, 且较之句层面指标有大幅提升。其中, 搭配整体多样性TOTAL_RTTR 单个指标可以解释写作成绩的 31. 2% , 是对写作成绩预测贡献最大的指标。3. 综合回归分析上文实验显示, 基于搭配的短语层面指标能够解释写作成绩变异的 32. 4% , 传统的句层面指标仅能解释写作成绩变异的 4. 9% 。为了进一步探测句法复杂度指标与写作成绩之间的关系, 以及各指标对写作成绩的解释力, 本节综合短语和句层面指标进行了回归分析。与此前实验一致, 首先检验指标与写作成绩的相关显著性以及指标之间是否存在共线性依赖, 短语层面和句层面共计 9 个指标中, MLC、NTPS、UNIQUE_RTTR 三个指标被剔除, 共有 6 个指标符合逐步回归分析条件, 包含 3 个短语层面指标和 3 个句层面指标, 其结果如表 6 所示。

表 6 基于跨层级句法复杂度指标的逐步回归分析结果

综合短语及句层面指标后, 六组回归模型的估计标准误( Std. Error of the Estimate) 均小于写作成绩的标准差 10. 980。此外, 回归系数均达到显著( p < 0. 001) , 回归模型的残差经直方图、P - P 图检验符合正态分布。由此可见, 该回归模型是有效的, 六个指标一共可以解释写作成绩变异的 34. 1% , 达到大效应量。具体来看, 融合短语和句层面指标后, 短语层面指标效应量保持不变, 仍可以解释写作成绩变异的 32. 4% , 而句层面指标效应量有所下降, 仅可以解释写作成绩变异的 1. 8% 。


四  讨论与分析


 本文从搭配多样性和复杂性角度提出了衡量二语文本句法复杂度的指标, 并基于大规模作文数据对句法复杂度与汉语二语写作质量之间的关系进行了探测。实验显示, 基于搭配的短语层面指标与汉语二语写作成绩之间呈现显著相关性, 在回归模型中, 其能够解释写作成绩变异的 32. 4% , R2达到大效应量。相较之下, 传统的句层面句法复杂度对写作成绩的解释性较弱, 尤其是在与短语层面指标共同进入回归模型时, 仅能解释写作成绩变异的 1. 8% 。该实验结果与英语二语写作句法复杂度研究呈现出一致趋势: 与句层面语言特征相比, 句子内部细粒度短语特征所构建的指标更有助于预测写作质量 ( Biber et al. , 2016; Kyle & Crossley,2018) 。值得注意的是, 现有的英语二语句法复杂度研究指出, 复杂名词短语及其中的修饰成分在衡量二语写作水平和预测二语写作质量中扮演重要角色( Lu, 2011; Taguchi et al. , 2013; Biber et al. , 2016; Kyle & Crossley, 2018) 。那么, 在汉语二语写作中是否存在类似的核心短语结构?与汉语二语写作质量最密切相关的短语特征是否会与英语存在差异? 接下来, 本节将分别讨论八种不同类型搭配的指标与写作成绩的相关性, 以期对上述问题进行初步探究。前文提出, 除了搭配整体多样性、汉语特有搭配多样性和汉语特有搭配比例外, 还可针对八种不同类型搭配计算多样性和比例指标。以动宾搭配为例, VO_RTTR 表示作文中动宾搭配的多样性, VO_RATIO 为该作文中动宾搭配所占比例。本文分别计算了每种搭配的 RTTR、RATIO 指标与写作成绩之间的相关性, 结果如表 7 所示。本节将分别对多样性和比例指标与写作成绩之间的关系进行探讨。

表 7 不同类型搭配指标与写作成绩之间的相关性

( 一 ) 搭配多样性角度

由表中结果可见, 状中搭配的多样性 AP_RTTR 与写作成绩的相关性最高( r = 0. 474) , 动宾搭配的多样性 VO_RTTR 次之( r = 0. 397) , 主谓搭配的多样性 SP_RTTR 达到 0. 330, 述补搭配的多样性 PC* _RTTR 接近 0. 3, 其余四种搭配的多样性分布在 0. 2 ~ 0. 26 之间。从多样性指标来看, 与写作成绩有较强相关性的结构集中在以谓词为核心的搭配上, 其中, 动宾搭配与主谓搭配体现了谓词与名词论元的组合, 而状中搭配与述补搭配则体现了谓词与前后修饰成分的组合。这种现象与英语短语句法复杂度聚焦复杂名词短语有所不同, 究其原因, 本文推测有如下几个方面:第一, 在汉语中, “动词是句子的中心、核心、重心, 别的成分都跟它挂钩”( 吕叔湘, 1987) 。刘丹青( 2010) 研究指出, 汉语作为一种动词性语言, 在小句层面对谓语动词缺失有强烈排斥,而主语和宾语的省略相对自由。因此, 汉语句子在进行扩展时, 较多调用动词来编码相应的语义关系, 体现出“动态”特征( 秦洪武、周霞, 2019) 。考虑到主谓、动宾、状中、述补结构中的核心谓词主要由动词担任, 当句子进行扩展时, 这些搭配结构的数量和多样性会得到相应增加。第二, 汉语词语缺乏形态变化, 很多语法功能通过谓词前后的修饰成分进行表达, 如动词的时态和语态、形容词的比较级和最高级等。谓词之前的修饰成分常与谓词形成状中搭配, 谓词后的修饰成分可与其构成述补搭配, 而带修饰成分的谓词也可与其他论元组成动宾搭配或主谓搭配, 参见例( 2) 至( 5) 。当句子表达涉及特定的语法功能, 相应类型搭配的数量及多样性也会得到增加。

第三, 英语短语句法复杂度的重要特征是复杂名词短语中的修饰成分, 如形容词、介词短语等( Biber et al. , 2016; Kyle & Crossley, 2018) 。在汉语中, 名词短语的扩展也不免与谓词及其修饰成分产生“互动”。刘丹青( 2010) 曾指出, 英语等语言中常用介词短语修饰名词, 而汉语介词缺乏相应的语义, 在表达相同含义时往往需要引入谓语成分; 英语中某些定语表达的内容, 在汉语中只能或可以用状语、补语来表达, 这使得英语中形名定中搭配所承载的句法关系在一定程度上“让位”给了汉语中的述补搭配和状中搭配。

基于上述分析, 本文发现, 与英语相关研究聚焦复杂名词短语及其中修饰成分有所不同,在汉语二语写作文本中, 谓词及其修饰成分在一定程度上编码了汉语所特有的句式特征和语法功能。所以, 以谓词为核心的短语结构成为了短语层面句法复杂度衡量的有效特征, 这些结构的多样性相较其他短语结构与二语作文成绩有更高的相关性。( 二 ) 搭配比例角度如表 7 所示, 基于比例的指标与写作成绩的相关系数普遍低于多样性指标, 但其相关系数的差异仍然折射出一些值得探讨的语言现象。在八种类型的搭配中, 仅量名搭配占比未与写作成绩形成显著相关性, 形名、状中、框式介词、介动、述补搭配占比与写作成绩均呈现正相关,而主谓、动宾搭配占比与写作成绩呈现显著负相关。在比例指标上, 与写作成绩相关系数绝对值最高的搭配是主谓搭配( r = - 0. 130) 和述补搭配( r = 0. 116) 。与写作成绩呈现显著负相关的是动宾搭配比例和主谓搭配比例, 这意味着作文成绩越高,动宾和主谓搭配比例越低, 尤其是主谓搭配。这种现象一方面是由于高分作文中其他类型搭配数量相较低分作文有所增加, 另一方面则是受到汉语流水句表达影响, 主语和宾语的省略相对自由( 刘丹青, 2010) 。值得一提的是, 主谓搭配比例与写作成绩的相关系数绝对值比动宾搭配更高, 本文推测这与汉语话题链结构的使用相关。在话题链中, 共享主题只在第一个分句的句首出现一次, 其他与句首互指的成分均可在之后的分句中省略, 形成零形成分 ( Jin,2007) 。如例( 10) 所示, 当大句以话题链形式进行扩展时, 其他类型搭配数量会随小句数量增加而增加, 但由于零形成分的存在, 主谓搭配的数量并不会得到线性增长, 因而主谓搭配比例与写作成绩呈现出负相关性。

( 三 ) 教学启示

上述研究给我们的启示是, 词语搭配不仅承载了词汇层面的知识, 也能够很好地反映句法特点。为了提升二语写作水平, 在词汇及语法教学中可有意识地引入搭配知识, 尤其需要关注( 1) 谓词及前后修饰成分、( 2) 汉语所特有的搭配结构等。以词语“提高”为例, 其状中和述补搭配分别涉及谓词前后的修饰成分, 述补搭配和介动搭配为汉语所特有的搭配结构, 介动搭配还涉及到了语法点“由”字句和“把”字句的使用。在教学中, 宜引导学生在理解结构的基础上通过填空、连线、按要求写句子等练习形式对搭配知识进行巩固, 进而帮助学生在写作中熟练地应用相关搭配。需要指出的是, 本文实验所使用的语料数据来自高等汉语水平考试( HSK 高等) 中的作文答卷, 参加考试的学生普遍达到中高级汉语水平。因此, 相关结论和启示主要适用于中高级汉语水平学习者, 搭配复杂度特征在初级水平学习者写作产出的表现仍有待进一步数据采集和研究。

五  结论与展望


 本文基于搭配结构提出了反映汉语语言特点的短语层面句法复杂度指标, 并引入大规模作文数据, 对句法复杂度与汉语二语写作质量之间的关系进行了系统探测。实验发现, 与小句、T 单位等句层面语言特征相比, 句子内部细粒度短语特征更有助于刻画二语写作文本的句法复杂度。基于搭配的短语层面指标能够解释写作成绩变异的 32. 4% , 回归 R2 达到大效应量。通过进一步分析, 本文发现, 从搭配多样性角度来看, 以谓词为核心的短语结构在句法复杂度衡量上扮演重要角色, 同时, 汉语所特有的短语结构( 尤其是述补搭配) 在写作成绩解释中有较强的效力。此外, 不同类型搭配的占比也与写作成绩有一定的相关性。需要指出的是, 本文虽然较为系统地考察了汉语句法复杂度指标与二语写作质量之间的关系, 但仍存在有待进一步挖掘和讨论的问题。在短语层面, 词语搭配未能完全覆盖汉语中的复杂短语结构, 如包含多重修饰成分的名词短语、动词短语等, 因此, 短语中修饰成分的数量及类型对句法复杂度的衡量仍然值得进一步探究。在句层面, 本文囿于识别技术的准确率, 未能对话题链相关指标的有效性进行对比和验证; 受到依存句法分析和作文偏误影响, T 单位识别和搭配抽取的效果仍有提升空间。此外, 作文数据未区分学习者母语, 短语和句层面指标的有效性在不同母语学习者作文上是否会有差异, 仍然值得进一步研究和讨论。

作者简介


   胡韧奋,博士,讲师,中文信息学会青工委成员,研究方向为计算语言学、计算机辅助语言教学、古汉语信息处理等。主持国家社科基金(青年)、国家自然科学基金(青年)及多项企业横向合作课题,在国内外高水平期刊会议上发表论文三十余篇。作为主持人或核心成员构建了汉语二语自适应测试、古汉语文本信息标注、“唐诗别苑”知识图谱等工具平台。主讲课程包括:Python编程与数据分析、自然语言处理专题、专业英语、现代教育技术应用、第二语言测试与评估等。英文主页:http://irishu.cn联系方式:irishu@bnu.edu.cn

本文来源:《语言文字应用》

文末点击“阅读原文”可跳转

课程推荐


助  研|语言学、汉语国际教育及相关专业学术论文写作研修班(第二期)

2021-05-04

推  荐|三天搞懂质性研究:方法、NVivo数据分析与写作

2021-04-15

助力科研|国家社科基金后期资助——从规划到立项

2021-03-29

必备课程|定量研究与SPSS体验营——3天爱上定量研究

2021-03-06

必备课程|让每一位文科生都能轻松上手的Python基础课

2021-02-06

推荐课程|8小时带你搞懂扎根理论:从方法到案例

2020-12-16

必备课程|“统计女王”和你讲:每一个文科生都能成为SPSS操作能手!

2020-12-07

研修班|语言学、汉语国际教育专业学术论文写作@北语出版社出品

2020-10-21


往期回顾


声  音|周庆生:中国语言人类学研究百年回眸


讲座预告|靳洪刚:第二语言课堂互动的关键


好书推荐|《汉语国际教育论文写作指导》(留言赠书)


资源推荐|中文概念语义特征数据库(CCFD)


欢迎加入
“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群


今日小编:秋实

审    核:心得小蔓

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存